Estudiante: Judit Lozano Gondolbeu

Introducción y Objetivo

El dataset revela el número de accidentes de tráfico ocurridos en Canadá desde el año 1999 hasta el 2014.

El objetivo de este estudio es encontrar un modelo que prediga, dado un conductor que sufre un accidente, si habrá fallecimientos o no.

Este cálculo determinará el capital preciso para que las compañias aseguradoras en este caso puedan hacer frente a las coberturas indemnizatorias por tales siniestros.

La dotación errónea de esa partida afectaría a la cuenta empresarial de resultados. Por exceso, al distorsionar la cifra de gastos del balance, inmovilizando recursos para atender inversiones rentables. Por defecto, al generar desajustes de tesorería, con las consiguientes consecuencias jurídicas derivadas de situaciones de iliquidez (concurso de acreedores) o ejecuciones judiciales (embargos). Y todo ello al margen de las sanciones administrativas (multas) por parte de la dirección general de seguros al incumplir la normativa sobre provisiones técnicas.

Analisis Exploratio de Datos

Libraries

Funciones

Cargamos los datos

Diccionario de datos

Observamos los tipos de las variables del dataset y el nombre de las columnas

Nos hacemos una idea del tipo de valores unicos que tenemos en cada columna y observamos que son etiquetas, es decir no son valores numéricos que se puedan fraccionar. Por lo tanto, pasamos a unificar los valores de las variables a enteros para facilitar el procesado de datos.

En el dataset cada fila corresponde a una persona que estuvo involucrada en un accidente. Es decir, cada registro puede hacer referencia al conductor, a alguien que viajaba en la segunda fila o incluso a un peatón que pasaba por alli.

Dado que el objetivo de este estudio es centrarse en los conductores desde el punto de vista de las compañias aseguradoras, crearemos una nueva variable que identifique a los conductores según la clase 'driver' de la variable P_PSN.

Para comprobar que esta interpretación es correcta, cogeremos la documentación y comparamos el numero de accidentes segun nuestra interpretación del dataset con los datos concretos que figuran en la documentacion:

Segun la documentación, seleccionando el periodo que nos interesa (del 1999 al 2014):

Accidentes con resultado mortal : 36000

Como observamos la lectura de los datos se aproxima bastante a la documentación. La diferencia de menos de 200 casos (menor del 1%) puede explicarse a la actualización de los datos que figuran en el pdf o en el csv o en ambos. Al ser la diferencia menor del 1%, concluiremos que la interpretación de la lectura de los datos en correcta.

Acontinuación introduciremos nuevas variables que puedan aportar valor al análisis como por ejemplo número de ocupantes por vehículo en el momento del accidente. Este dato podría ser útil si el asegurado en el momento de contratar la póliza indicara el número de ocupantes que espera llevar en el coche a diario de media.

Observamos la frecuencia de datos en nuestra variable creada sobre el número de occupantes filtrando por conductores (entendiendo que 1 conductor == 1 vehiculo) y filtrando por los casos donde hubo accidentes mortales:

De este análisis se entiende que la mayoría de los casos donde hubo algún fallecido el conductor iba solo (65%), en un 22% de los casos en el vehículo iban 2 personas. Procederemos a agrupar el resto de opciones en una categoría nueva "más de dos" , correspondiente a la etiqueta==3:

A continuación, filtraremos fuera del dataset a los no conductores y crearemos nuestra variable 'Target' que identifica a los conductores involucrados en un accidente donde hubo algún fallecido con un 1 y conductores que tuvieron un accidente pero sin fallecidos con un 0.

Además dejaremos fuera del data set las variables que no vamos a utiliar como por ejemplo: ['C_CONF', 'P_PSN', 'P_ID', 'V_ID','P_USER',"P_ISEV", 'C_SEV', 'ACCIDENT_ID', 'DRIVERS']

Tal exclusión obedece bien a que no aportan valor (como los IDs), bien a que reflejan datos inútiles para la predicción. Y ello, al no estar disponibles con antelación a la producción de un accidente del asegurado. Es decir, al momento de la implantación del modelo pretendido.

Exploración de la variable objetivo

Aqui se observa un desbalanceo significanivo de los datos ya que tan solo un 1.46% de los conductores ha estado involucrado en algun accidente donde hubo al menos un fallecido. Este desbalanceo se tratará más adelante.

Observamos que no hay ninguna columna duplicada en el dataframe.

Preprocesamiento inicial de las variables:

Observamos que no hay valores nulos en el dataset.

Análisis gráfico del resto de variables

Comentarios:

Meses

El número de conductores accidentados declina a partir de enero pero sube a partir de marzo coincidiendo con la llegada de la primavera en Canadá y se mantiene aproximadamente constante durante el resto del año. Analizando el numero de accidentados por meses, la proporción de accidentes mortales es ligeramente más alta en julio y agosto coincidiendo con los meses más cálidos en Canadá.

Días de la semana

El viernes es el día de la semana donde se concentran el mayor número de accidentes. La proporción de accidentes mortales entre los accidentes que ocurren a diario es más alta los sábados y domingos.

Horario

La hora del día donde los accidentes ocurren con más frecuencia es entre las 3 y las 5 de la tarde. Sin embargo la proporción más alta de mortalidad por horas se concentra entre las 12 y las 7 de la madrugada.

Configuración de la carretera y alineación de la carretera

El mayor número de accidentes ocurre en los puntos con intersecciones de al menos dos carreteras o entre bloques en lía recta. Sin embargo, la proporción de mortalidad entre los accidentes es mayor en las carretas con algún tipo de desnivel.

Esta categoría se corresponden bastante bien con los datos que aparecen según la alineación de la carretera. Según estos datos, la mayoría de los accidentes ocurren cuando la carretera es recta . Sin embargo, en proporción, la mortalidad se concentraría más ligeramente en los casos donde existe alguna curva y desnivel.

Señalización de la carretera

El número de conductores accidentados se disparan cuando la carretera no tiene ningún tipo de señalización. Sin embargo, en los pasos de trenes donde hay algún tipo de señalización la proporción de mortalidad entre los accidentes es más elevada.

Tipo de vehículo

El tipo de vehículo más accidentado es el turismo o furgoneta ligera o vehículo ligero. Sin embargo, el tipo de vehículo con mortalidad más alta en proporción son de tipo tractor y los vehículos de nieve.

Dispositivo de seguridad

La mayoría de los accidentados usó algún tipo de dispositivo de seguridad. Proporcionalmente se cumple que los casos mortales son más altos cuando no existió ningún tipo de dispositivo de seguridad.

Sexo

Hay un mayor número de conductores accidentados hombres en total. Sin embargo, en proporción solo ligeramente los hombres superan a las mujeres en el numero de casos mortales.

Climatología

En cuanto al tiempo, la mayoría de accidentes ocurre cuando hace bueno pero la mortalidad se dispara cuando la visibilidad es limitada (niebla, humo, polvo etc…)

Superficie de la calzada

Asimismo, la mayoría de accidentes ocurren en superficie normal/ seca aunque en proporción la mortalidad se concentra más en los casos cuando hay agua en la calzada.

Comentarios:

En relación a las variables numéricas se puede visualizar los outliers o puntos desconocidos más alejados de la muestra principal. En este caso, decidimos no eliminar los outliers para no perder información.

Se observa una distribución similar en el caso del año del vehículo para casos con o sin fallecidos, siendo la moda del año del vehículo entorno al 2000.

Igualmente se observa una distribución similar en el caso de la edad de los conductores para casos con o sin fallecidos. También aquí se observan dos modas entorno a los 18-20 años de edad y entorno a los 40.

En cuanto al número de ocupantes se observa que la mayoría de conductores accidentados ocurre cuando éste va sólo y además en proporción, la concentración de casos mortales también ocurre cuando el conductor va sólo.

Medidas de asociacion entre las variablies categoricas: cramers_v

Comentarios

La matriz de Cramers muestra como no hay un ningún par de variables con una alta asociación en el dataset. Las únicas variables que guardarían cierta relación sin llegar a ser muy altas son las variables Road Aligment y Road configuration que ya discutimos en el apartado anterior.

Matriz de Correlazión entre variables numéricas

Comentarios

Se observa poca correlacion entre las variables numéricas de la muestra.

De entre ellas, la más alta correlacion es entre el año de matriculación del coche accidentado (V_YEAR) y la edad del conductor (P_AGE) pero como observamos al no ser muy alta no vamos a proceder a la eliminación de ninguna variable.

En relación a nuestra variable target (TARGET), la variable con la correlacion mas alta correspondería a la del numero de personas que viajaban en el coche en el momento del accidente (PP_CAR). De nuevo, al ser la correlación muy pequeña, concluiremos que ésta es insignificante.